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基于 GPU 的 非 相干 消 色 散 算 法 
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摘 要 : 针对 脉冲 星 信号 实时 消 色散 处 理 需 求 ， 实 现 了 基于 CPU 的 非 相 和 干 消 色 散 算 法 。 
采用 高 性 能 并 行 计 算 方法 对 非 相干 消 色 散 算法 的 多 线程 处 理 进行 了 深入 研究 ,提出 了 算法 的 
并 行 化 加 速 方案 ,解决 了 消 色 散 算 法 计算 量 大 无 法 实时 处 理 问题 。 分 析 算 法 的 密集 型 计算 部 
分 ,高效 利用 GPU 的 层次 存储 结构 ， 提 高 了 GPU 资源 利用 率 ， 进 而 减少 了 计算 时 间 ， 显 著 提 
升 了 非 相 干 消 色 散 算法 的 计算 性 能 。 
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宇宙 空间 中 的 星际 介质 (Inter-Stellar Medium, ISM) “包含 大 量 电离 气体 云 、 中 人 性 
尘埃 粒子 和 自由 电子 等 物质 .脉冲 星 信号 在 宇宙 空间 中 传播 的 时 候 会 因为 ISM 色散 的 影响 而 
降低 速度 ， 高 频 的 无 线 电波 传播 速度 比 低频 快 ， 所 以 高 频 和 低频 电磁 波 到 达 射 电 望 远 镜 的 时 
间 有 一 定 延 迟 ， 脉 冲 星 信号 因此 出 现 能 量 分 散 而 使 脉冲 轮廓 加 宽 ， 信 噪 比 下 降 ， 甚 至 会 导 
脉冲 信号 消失 。 

为 了 解决 脉冲 星 信 号 色散 问题 ， 天 文学 家 研究 了 消除 色散 方法 ”及 高 速 消 色散 处 理 技 
术 。 利 用 多 通道 滤波 器 组 “对 脉冲 星 信 号 进行 通道 划分 ， 生 成 多 个 窜 带 信号 ， 针 对 冠 带 信号 
进行 时 间 延 迟 处 理 ,， 每 个 通道 延迟 时 间 可 以 通过 色散 公式 计算 , 最 后 将 所 有 冠 带 通道 进行 累 
加 ， 获 得 高 信 品 比 脉冲 信号 。 


非 相 干 消 色散 是 脉冲 星 观 测 数据 处 理 中 最 常用 的 色散 处 理 方法 ， 具 备 实现 简单 、 速 度 
快 、 数 据 后 期 处 理 灵活 等 优势 。 在 脉冲 星 搜寻 中 ， 随 着 色散 量 (Dispersion Measure, DM), 
数据 通道 及 采样 数量 的 增加 , 非 相干 消 色散 算法 计算 量 迅 速 提高 , 通用 的 计算 平台 难以 实现 
脉冲 星 数据 的 实时 处 理 。 近 年 来 ，GPU “的 可 编程 能 力 及 并 行 处 理 能 力 迅 速 提高 ， 应 用 范围 
也 不 断 扩 展 ,在 CPU+GPU 混合 计算 系统 中 , GPU 的 加 入 大 大 提高 了 整个 系统 的 数据 处 理 能 力 。 
高 性 能 GPU 集群 系统 可 提供 强大 的 计算 资源 ,能够 满足 海量 天 文 数据 的 实时 处 理 需 求 , 从 而 
解决 脉冲 星 消 色散 算法 计算 量 巨大 无 法 实时 处 理 的 问题 。 


1 非 相 干 消 色散 

非 相 干 消 色 散 算法 根据 色散 公式 计算 每 个 通道 的 延迟 时 间 , 然后 加 上 各 个 通道 的 延迟 ， 
并 把 所 有 通道 合 加 在 一 起 ， 即 可 消除 数据 的 色散 影响 。 非 相干 消 色 散 原理 如 图 1 所 示 。 

非 相 干 消 色 散 采 用 多 通道 滤波 器 组 来 实现 ， 消 色散 处 理 过 程 主要 包括 : (1) 通道 划分 ， 
使 用 滤波 器 组 把 观测 的 天 文 信号 总 带宽 分 成 者 干 个 相互 独立 的 狭窄 通道 ; (2) 补充 时 间 延 迟 ， 
根据 色散 公式 计算 每 个 通道 的 时 间 延 迟 , 按 延 迟 进行 通道 平移 ,将 各 个 罕 带 通道 的 脉冲 信和 号 
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在 同一 时 刻 对 齐 ; (3) 通道 累加 ， 将 所 有 通道 时 间 序列 车 在 一 起 。 
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图 1 非 相 干 消 色散 原理 


Fig 1. The principle of incoherent de-dispersion 


图 1 说 明了 非 相 干 消 色 散 的 处 理 过 程 。 图 中 左 半 部 分 未 进行 消 色 散 ， 右 半 部 分 是 消 色 散 
处 理 后 的 结果 。 从 图 中 可 以 看 出 ， 消 色散 前 ， 通 道 累加 之 后 脉冲 宽度 被 展 宽 ， 输 出 信号 信 品 
比 下 降 ， 消 色散 之 后 可 以 得 到 信 品 比 大 幅 提 高 的 脉冲 星 轮 亡 。 

非 相 干 消 色散 已 被 广泛 应 用 于 脉冲 星 、 快 速射 电 爆 “搜寻 。 非 相干 消 色散 方法 处 理 后 
的 脉冲 星 数据 ， 其 各 个 子 通道 内 的 色散 延迟 依旧 存在 ， 不 能 得 到 脉冲 的 真实 轮廓 ， 随 着 频谱 
通道 数 的 增加 ， 每 个 通道 的 带宽 变 小 ， 带 内 的 色散 效应 可 相应 减轻 ， 低 频 信号 和 高 频 信号 
在 星系 际 介 质 中 的 传播 速度 时 间 差 为 : 


e 1 1 
x DM x(—,-—>) 
fv h 


AP, c 为 光 在 真空 中 的 传播 速度 ，e 为 电子 电荷 ，DM 为 色散 量 ， 忆 为 电子 质量 。DM 可 
表示 为 : 


(1) 


aA 2xcm 


d 
DM =| n,dl~n,d (2) 
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脉冲 星 消 色散 处 理 中 ， 一 个 频率 通道 /相对 于 参考 通道 (通常 是 观测 带宽 中 必 
频率 ) 的 时 间 延迟 ， 可 根据 色散 量 公式 © 计算 : 
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At = Kpu x DM x(—>— | 


3 
J, ref J. oa 


RE, Koy 是 色散 量 常数 ，DM 为 观测 脉冲 星 信 号 的 色散 量 ， 其 单位 为 cm pc， 频 率 单 
位 为 Miz。 色 散 量 常数 为 : 


2 
e 


=4.148808x10° MHz’ pc! cm’ s (4) 
mcm 

在 实际 观测 中 ,观测 频率 了 往往 远大 于 划分 的 通道 带宽 Af， 如 果 f >> AP 时 ， 频 率 通道 的 
延迟 时 间 可 写 为 : 


DM 


toy = 8.3x10°ms x DM x Af x f” (5) 


式 〈5) 说 明 ， 通道 带宽 和 色散 延迟 时 间 成 正比 ， 为 了 得 到 更 小 的 色散 延迟 ， 需 要 划分 
很 细 的 窗 带 通道 ， 尽 量 减 少 单 通道 信号 带宽 。 


2 非 相 干 消 色散 算法 的 GPU 实现 


GPU 是 现代 PC 中 常见 的 设备 ， 专 为 执行 复杂 的 数学 和 几何 计算 而 设计 的 一 种 高 度 并 行 
化 、 多 线程 、 多 核 处 理 器 ， 高 速 实 现 图形 泻 染 。 基 于 GPU 的 通用 计算 技术 已 经 成 为 高 性 能 3 
行 计 算 领 域 的 研究 热点 。GPU 由 于 具备 多 个 核心 ， 更 适合 计算 密集 型 操作 。GPU 的 内 核 相 当 
于 CPU 的 多 个 线程 , 这 些 线程 可 以 并 行 运行 完成 指定 的 计算 任务 , 而且 数 值 计 算 的 速度 远 远 
优 于 CPU. GPU 的 线程 结构 如 图 2 所 示 。 


图 2 GPU 线程 结构 


Fig 2. GPU thread structure 
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于 发 使 用 CUDA 程序, CUDA 是 一 种 由 NVIDIA 
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E 出 的 通用 并 行 计算 平台 和 编程 模 


型 ， 使 GPU 能 够 解决 复杂 的 计算 问题 。CUDA 提供 了 硬件 的 直接 访问 接口 ， 不 依赖 图 形 API 


接口 来 实现 GPU 访问 ,在 架构 上 采用 了 全 新 的 计算 体系 结构 来 使 用 


GPU 提供 的 硬件 资源 .CUDA 


采用 标准 C 语言 的 扩展 作为 编程 语言 提供 大 量 的 高 性 能 计算 指令 , 使 我 们 能 够 在 GPU 的 强大 


计算 能 力 基 础 上 实现 效率 更 高 的 密集 数据 计算 算法 。 


分 析 和 研究 非 相干 消 色 散 算法 结构 ， 把 计算 量 大 的 任务 部 分 映射 到 GPU 的 多 线程 进行 


处 理 。 非 相干 消 色 散 算 法 复杂 度 为 0 (NsXN.XN.),， H 
样 数 ， 算 法 数学 模型 计算 量 较 大 ， 但 是 通过 GPU 处 型 


对 非 相 干 消 色 散 的 色散 量 和 时 间 吾 


可 得 到 很 好 的 加 速 比 。 在 
才 度 上 进行 并 行 化 ， 频 率 通 道 累 加 采用 了 串 行 


[中 Na 为 DM 总 数 ， Ne 为 通道 数 ， Ns 为 采 


的 处 理 方法 ， 


GPU 算法 中 ， 


即使 用 GPU 的 单线 程 实现 了 N. 个 通道 的 相 加 计算 。 在 整个 消 色 散 过 程 中 ，CPU 负责 系统 的 初 
始 化 和 输入 数据 读 取 ，GPU 负责 并 行 消 色 散 处 理 ，CPU 接收 消 色 散 后 的 时 间 序 列 并 输出 到 数 
据 文件 。 非 相干 消 色 散 算 法 CUDA 程序 流程 图 如 图 3 所 示 。 
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图 3 非 相干 消 色 散 CUDA 程序 流程 图 


Fig 3. Flow chart of CUDA program for incoherent de-dispersion 


首先 在 CPU 内 存 中 开辟 缓冲 区 ， 写 入 所 需要 处 到 


的 数据 。 缓 冲 区 暂 存 的 采样 都 存在 一 定 


的 色散 ， 因 此 需要 对 各 个 频率 通道 进行 位 移 和 累加 运算 ， 随 着 时 间 延 迟 增 大 ， 通 道 位 移 也 增 


响 ， 在 GPU 


数据 保留 足够 大 存储 空 


H 


K, 低频 通道 的 位 移 量 更 大 。 为 了 减少 CPU 


和 GPU 之 间 的 频繁 数据 传输 对 算法 计算 性 能 的 影 


FPF 也 设置 全 局 内 存 缓冲 区 ， 尺 量 把 大 量 数据 一 次 性 复制 过 去 , 并且 为 写 入 和 读 取 


R, JER kernel 函数 运行 速度 。 


为 了 提高 算法 的 并 行 化 加 速 , 将 非 相 干 消 1 


Hjo GPU kernel 函数 执行 过 程 中 ， 使 用 共享 内 存 减 少 全 局 内 存 的 延 


色散 算法 的 计算 分 为 两 部 分 ,第 一 部 分 在 CPU 


上 执行 。 
tenon =4.1$x10x( 帮 一 户 ”) (6) 


式 中 AA、£ 的 单位 是 MHz, tenan MIE DM 值 无 关 ， 使 用 GPU 的 常量 内 存 存储 。 然 后 
在 GPU 上 执行 计算 的 第 二 部 分 : 


t,x DM (7) 


— “chan 
DM ` 
lam 
p 


`~ 


式 中 ts 为 采样 时 间 ， 单 位 是 ms。 

根据 非 相 干 消 色散 算法 特性 ，GPU kernel 函数 中 定义 了 两 个 缓冲 区 : 共享 内 存 和 常 
内 存 。 其 中 ， 共 享 内 存 存 储 积分 运算 的 结果 ， 常 量 内 存 用 于 存储 DUM_shift。 为 了 快速 通 
累加 ， 使 用 共享 内 存 ， 隐 藏 了 全 局 内 在 的 访问 延迟 。 一 个 线程 块 里 面 的 所 有 线程 获取 DM Y 
移 值 ， 并 且 存 储 到 共享 内 存 。 对 于 每 一 个 DM 值 ， 在 共享 内 存 中 进行 积分 运算 ， 并 把 消 色 间 
处 理 结 果 写 入 到 GPU 的 全 局 内 存 。 
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3 实验 分 析 


本 次 实验 平台 使 用 了 Intel Xeon E5-1620、TITAN V, CUDA 10. 0 及 Ubuntu 18. 04. TITAN 
V 是 一 款 NVIDIA GeForce 系列 高 端 GPU, 拥有 5120 个 CUDA 核 , 内 存 访问 带宽 为 652. 8GB/s。 

为 了 验证 GPU 并 行 算法 性 能 ， 首 先 分 别 模拟 生成 了 32、64、128、256、512 及 1024 通 
道 脉 冲 星 数 据 ， 其 中 心 频率 为 420MHz， 和 带宽 为 6 MHz， 采 样 间隔 时 间 为 1654 s， 脉 冲 星 信 
号 周期 为 0. 1s, 然后 将 每 一 块 数据 单独 读 取 并 加 载 到 GPU 中 进行 处 理 。 实 验 结果 如 表 1、 表 
2、 表 3 及 表 4 所 示 。 


表 1 采样 数 为 固定 时 非 相 干 消 色 散 处 理 时 间 〈 单 位 : s， 采 样 : 131072) 
Tab. 1 Incoherent de-dispersion processing time when the number of samples is fixed 
(time: s, samples: 131072) 


32 channel 64 channel 128 channel 
number of DM 
CPU TITAN V CPU TITAN V CPU TITAN V 

1 0.0273 0.0078 0.0566 0.0148 0.1078 0.0289 
2 0.0548 0.0085 0.1125 0.0154 0.2153 0.0296 
5 0.1395 0.0102 0.2837 0.0172 0.5502 0.0324 
10 0.2813 0.0132 0.5774 0.0204 1.1226 0.0357 
20 0.5776 0.0189 1.2642 0.0265 2.3252 0.0434 
40 1.4008 0.0314 2.7714 0.0393 5.3281 0.0599 
80 3.0338 0.0574 6.0615 0.0658 11.9435 0.0962 
160 6.1332 0.1193 13.0557 0.1273 26.7130 0.1636 
320 13.8274 0.2556 29.5114 0.2740 56.2105 0.3399 
640 33.9295 0.5106 65.7593 0.6378 134.9701 0.7307 
1280 75.4416 1.0504 154.0248 1.3330 312.0603 1.7597 


2560 158.7455 2.2094 329.0613 2.8760 668.0033 4.0038 


5120 322.9089 4.3976 698.3460 6.0016 1389.3232 8.6268 


He 2 采样 数 为 固定 时 非 相 干 消 色 散 处 理 时 间 〈 单 位 : s， 采 样 : 131072) 
Tab. 2 Incoherent de-dispersion processing time when the number of samples is fixed 
(time: s, samples: 131072) 


number of 256 channel 512 channel 1024 channel 
DM CPU TITAN V CPU TITAN V CPU TITAN V 
0.2103 0.0565 0.4204 0.1127 0.8289 0.2249 
0.4308 0.0579 0.8371 0.1143 2.2732 0.2275 
5 1.1644 0.0614 2.1853 0.1197 4.9677 0.2379 
10 2.5279 0.0664 4.6357 0.1280 9.5110 0.2492 
20 5.4891 0.0785 10.3499 0.1459 18.5704 0.2838 
40 11.5288 0.1039 21.8757 0.1830 36.8282 0.3424 
80 23.8050 0.1597 48.0757 0.2638 74.0204 0.4728 
160 57.7672 0.2726 119.5114 0.4276 194.2584 0.7379 
320 136.8641 0.5256 274.3375 0.7527 507.1785 1.2810 
640 299.1812 1.0638 590.8383 1.4577 1161.6285 2.3831 
1280 632.3722 2.5118 1238.2926 2.9597 2463.5231 4.6113 
2560 1299.2245 6.8297 2592.5578 7.0263 5102.2142 9.3347 
5120 2749.8164 19.221491 5533.0351 17.4777 10995.2138 20.4063 


表 1、 表 2 是 在 采样 数 为 131072 CERE), TEA DM 数 都 变化 的 情况 下 GPU 并 
行 算 法 和 CPU 串 行 算法 的 非 相干 消 色散 处 理 消 耗 时 间 。 从 表 中 可 以 看 出 , 当 通 道 数 量 固 定时 ， 
随 着 DM 数 的 增加 ，GPU 和 CPU 的 数据 处 理 时 间 线 性 增加 ，GPU 的 消 色散 处 理 时 间 远 远 少 于 
CPU 的 计算 时 间 ; 当 DM 数 为 固定 时 ， 随 着 数据 通道 数量 的 增加 ，CPU 和 GPU 处 理 需要 的 时 间 
增 大 ， 但 是 CPU 的 计算 时 间 比 GPU 大 的 多 。 


表 3 通道 数 为 固定 时 非 相 干 消 色 散 处 理 时 间 (单位 : s， 通 道 : 1024) 
Tab. 3 Incoherent de-dispersion processing time when the number of channels is fixed 
(time: s, channels: 131072) 


number 4096 sample 8192 sample 16384 sample 32768 sample 

of DM CPU TITAN CPU TITAN CPU TITAN CPU TITAN 
1 0.0259 0.0073 0.0519 0.0145 0.1037 0.0287 0.2072 0.0577 
2 0.0518 0.0073 0.1036 0.0144 0.2075 0.0286 0.4147 0.0569 
5 0.1307 0.0077 0.2624 0.0151 0.5251 0.0298 1.0499 0.0598 


10 0.2656 0.0081 0.5379 0.0157 1.0764 0.0313 2.1585 0.0625 


20 0.5430 0.0086 1.1102 0.0171 2.2238 0.0348 4.4429 0.0699 


40 1.0930 0.0099 2.2470 0.0205 4.5026 0.0414 9.1970 0.0852 


80 2.2684 0.0129 4.6959 0.0266 9.3686 0.0565 18.5134 0.1147 


160 5.4016 0.0191 12.2362 0.0401 24.2389 0.0859 48.6114 0.1781 


320 12.6597 0.0296 31.9656 0.0705 63.5571 0.1461 126.8976 0.3047 


640 28.2764 0.0541 71.4992 0.1230 144.0788 0.2692 288.2967 0.5664 


1280 61.5773 0.1020 150.4389 0.2408 299.1604 0.5263 614.7442 1.1099 


2560 129.2098 0.2064 302.7521 0.4777 637.8879 1.0559 1280.9965 2.2027 


5120 281.6858 0.4243 672.2270 0.9917 


1374.9966 2.1815 2756.7142 4.5928 


K 3 是 当 数 据 为 1024 通道 时 ， 采 样 和 DM 数 都 变化 情况 下 的 GPU 并 行 算法 和 CPU 串 行 
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中 可 以 看 出 GPU 大 大 缩短 了 非 术 


表 4 是 在 DM 数 为 
干 消 色散 处 理 消耗 时 间 。 当 采样 
也 增加 ; 当 通 道 数 固定 时 ， 随 着 数据 采样 的 增加 ， 并 行 和 串 行 算法 执行 需要 更 多 的 时 间 。 在 
的 运算 时 间 均 小 于 CPU, | 


数 变化 的 情 


色散 处 


算法 的 非 相干 消 色 散 处 理 消耗 时 间 。 当 采 相 
据 处 理 时 间 增 加 ， 当 DM 数 为 固定 时 ， 随 着 数据 采样 的 增加 ， 并 行 和 串 行 算法 执行 需要 更 多 
LE 时 间 少 于 CPU 的 计算 时 间 ， 计 算 速 度 有 几 百 倍 的 差距 ， 从 表 
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表 4 DM 数 为 固定 时 非 相 干 消 色 散 处 理 时 间 (单位: s, DM: 5120) 
Tab. 4 Incoherent de-dispersion processing time when the number of DMs is fixed (time: 
s, DMs: 131072) 


DM 数 的 增加 ，GPU 和 CPU 的 数 


日 消耗 时 间 差 距 明 显 。 


Channel Sample 4096 8192 16384 32768 65536 
39 CPU 7.4468 15.0353 30.2430 60.6416 133.7846 
TITAN V 0.1002 0.2003 0.4215 0.8864 2.0978 
6A CPU 14.5728 29.8505 59.7925 123.8967 330.8217 
TITAN V 0.1127 0.2164 0.4667 1.2664 2.8659 
128 CPU 28.6676 57.8297 118.1305 316.7424 703.6475 
TITAN V 0.1307 0.2665 0.7702 1.9095 4.0631 
256 CPU 53.8793 111.2041 301.5122 694.0670 1386.7769 
TITAN V 0.1519 0.4544 1.1833 3.4037 8.927236 
512 CPU 104.1580 282.3113 684.1435 1361.1676 2718.7850 
TITAN V 0.2411 0.6064 1.4260 3.3107 7.3363 
1024 CPU 281.2189 684.9610 1375.0873 2744.7187 5494.2190 
TITAN V 0.4230 1.0071 2.1739 4.6273 9.8898 
600 T T T T T T T T T T T T T 
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[EG 256 channels 
[5539512 channels 


Speed-up Factor 


上 
Q 
o 


= 1024 channels 


wo 
Q 
© 


N 
Q 
© 


100 


10 20 40 80 
Number of DM 


160 320 640 
values 


图 4 采样 数 为 131072 时 GPU 算法 加 速 比 
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Fig 4. GPU algorithm speed-up when the number of samples is 131072 


和 CPU 比较 ,GPU 非 相干 消 色 散 的 数据 能 力 达 到 几 百 倍 的 加 速 比 , 具有 显著 的 加 速 优势 。 
GPU 并 行 算 法 的 加 速 比 性 能 如 图 4、 图 5 及 图 6 所 示 。 


图 4 是 在 采样 数 为 131072, 通道 和 DM 数 均 变 化 的 情况 下 GPU 并 行 算法 的 加 速 比 。 从 图 
中 可 以 看 到 ， 随 着 DM 数 的 增加 ， 并 行 算 法 的 加 速 比 提高 。 当 DM 个 数 为 2560 时 ，TITAN V 
的 加 速 比 最 高 〈“ 即 达到 CPU 速度 的 538 倍 ) ， 然 后 加 速 比 开始 下 降 。 如 图 5 所 示 ， 通 道 数量 
RE, GPU 算法 的 加 速 比 越 大 ， 得 到 的 加 速 性 能 越 好 。 当 通道 数 为 1024 时 ， 加 速 比 最 高 ; 
当 通 道 数 为 32 时 加 速 比 最 小 。 
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图 5 DM 数 为 5120 时 GPU 算法 加 速 比 


Fig 5. GPU algorithm speed-up when the number of DMs is 5120 


图 5 显示 的 是 当 DM BCA) 5120 时 ， 在 通道 数量 和 采样 数 都 变化 的 情况 下 GPU 并 行 算法 
的 加 速 比 。 从 图 中 可 以 看 到 ， 随 着 采样 的 增加 ， 并 行 算法 的 加 速 有 所 下 降 ， 但 算法 加 速 高 达 


€ 550 多 倍 。 当 通道 数 为 1024 If, TITAN V 达到 最 高 的 加 速 比 。 当 通道 数 为 1024、 采 样 为 8192 
Q Ht, GPU 并 行 算法 是 CPU 算法 速度 的 780 多 倍 。 
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图 6 通道 数 为 1024 时 GPU 算法 加 速 比 
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Fig 6. GPU algorithm speed-up when the number of channels is 131072 


图 6 是 在 通道 数 为 1024, 采样 和 DM 数 都 变化 的 情况 下 GPU 并 行 算法 的 加 速 比 。 从 图 中 
可 以 看 到 ，DM 个 数 对 GPU 非 相干 消 色 散 算 法 加 速 比 影响 最 大 。 随 着 DM 数 的 增加 ，GPU 并 行 
算法 的 加 速 比 迅速 提高 。 如 图 6 所 示 ，DM 个 数 越 大 ， 计 算 消 耗 时 间 越 多 ， 当 DM 数 为 5120 
时 ， 加 速 比 最 大 。 

实验 结果 表示 ， 采 样 数 、 通 道 数 及 DM 值 个 数 都 是 影响 GPU 算法 加 速 性 能 的 关键 因素 。 
非 相 干 算法 执行 中 GPU 展示 了 强大 的 并 行 化 处 理 优势 , 节省 了 大 量 重复 计算 时 间 , 提升 了 算 
法 的 计算 效率 。 


4 总 结 


本 文 研究 基于 GPU 的 非 相干 消 色 散 算 法 ， 提 出 了 相关 算法 的 GPU 并 行 化 加 速 方案 。 分 析 
了 算法 的 密集 型 计算 部 分 、 研 究 了 GPU 多 线程 任务 分 配 、 管 理 及 存 器 层次 的 优化 方法 ， 提 高 
了 GPU 资 源 利用 率 ， 显著 提升 了 算法 的 计算 性 能 。 在 GPU 算 法 的 实现 过 程 中 , 深入 分 析 了 影响 
并 行 算法 性 能 的 主要 因素 ， 优 化 了 CUDA 程 序 ， 大 大 减少 了 算法 执行 消耗 时 间 ，GPU 消 色散 算 
法 加 速 比 接近 700 倍 , 解决 了 算法 在 CPU 上 计算 量 巨大 无 法 实时 处 理 的 问题 。 通 过 实验 分 析 了 
算法 的 数据 处 理 消 耗 时 间 和 加 速 比 ， 验 证 了 并 行 算法 性 能 。 
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Abstract: In order to meet the requirements of real-time de-dispersion processing of pulsar 
signals, a GPU based incoherent de-dispersion algorithm is implemented. We use 
high-performance parallel computing methods to conduct in-depth research on the incoherent 
de-dispersion algorithm for multi-thread processing, and propose a parallel acceleration scheme 
for the algorithm, which solves the problem that the de-dispersion algorithm has a large amount of 
calculation and cannot be processed in real time. We analyze the intensive computing parts of the 
algorithm, efficiently use the hierarchical storage structure of the GPU, improve the utilization 
rate of GPU computing resources, thereby reducing the calculation time, and significantly 
improving the calculation performance of the incoherent de-dispersion algorithm. 
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